FILTER MODE ACTIVE

#обучение с подкреплением

Найдено записей: 90

#обучение с подкреплением18.11.2025

Grok 4.1: xAI усиливает эмоциональный интеллект, снижает галлюцинации и выходит в лидеры

'Grok 4.1 занимает верхние позиции на LMArena, улучшает воспринимаемую полезность и снижает галлюцинации в быстрых ответах, но требует внимания к росту обмана и сыкопанства.'

#обучение с подкреплением05.11.2025

Обучение model-native агента: внутреннее планирование, память и использование нескольких инструментов через end-to-end RL

'Компактный нейросетевой агент учится планировать, хранить и комбинировать символические операции end-to-end с помощью RL, показывая сходящиеся многошаговые стратегии на синтетических арифметических задачах.'

#обучение с подкреплением01.11.2025

DeepAgent: единый поток мышления, поиск инструментов и выполнение действий

'DeepAgent объединяет мышление, поиск и вызовы инструментов и сжимает историю взаимодействия в память, что позволяет агенту работать с десятками тысяч API и лучше решать длительные задачи.'

#обучение с подкреплением26.10.2025

Обучение и сравнение RL-агентов для трейдинга с Stable-Baselines3: практическое руководство

'Создайте кастомную торговую среду и обучите несколько RL-агентов с Stable-Baselines3, затем оцените и визуализируйте их поведение, чтобы выбрать лучшую стратегию.'

#обучение с подкреплением23.10.2025

UltraCUA: гибридная модель для агентов, сочетающая клики с программными вызовами

'UltraCUA объединяет клики и программные вызовы в единое гибридное пространство действий, повышая успех и сокращая количество шагов в задачах десктопной автоматизации.'

#обучение с подкреплением08.09.2025

Преимущество RL: исследование MIT показало, что обучение с подкреплением снижает катастрофическое забывание по сравнению с SFT

'MIT доказали, что on-policy обучение с подкреплением сохраняет ранее приобретённые способности лучше, чем супервизированное дообучение, за счёт минимизации прямого KL-расхождения между базовой и адаптированной моделью.'

#обучение с подкреплением31.08.2025

Alibaba представила GUI-Owl и Mobile-Agent-v3: умные агенты для автоматизации интерфейсов

'Команда Alibaba представила GUI-Owl и Mobile-Agent-v3 — мультимодальную модель и мультиагентный фреймворк для надежной автоматизации интерфейсов на мобильных и десктопных платформах.'

#обучение с подкреплением22.08.2025

ComputerRL: гибридная API-GUI платформа Zhipu AI для автономных агентoв рабочего стола

'ComputerRL объединяет программные API и GUI-взаимодействия с масштабируемой инфраструктурой RL, показывая значительные улучшения на бенчмарке OSWorld. Метод Entropulse помогает сохранять исследование и улучшать результаты обучения.'

#обучение с подкреплением10.08.2025

Алгоритмы, которые сговариваются: как самообучающиеся инструменты ценообразования меняют антимонопольное право

'Самообучающиеся ценовые алгоритмы могут создавать устойчивые высокие цены, ставя под вопрос традиционные подходы антимонопольного контроля и требуя новых мер прозрачности и ответственности.'

#обучение с подкреплением04.08.2025

ByteDance представляет Seed-Prover: прорыв в автоматическом доказательстве математических теорем

ByteDance представила Seed-Prover — инновационную систему доказательства на основе лемм, которая добилась прорывных результатов, решив 5 из 6 задач IMO 2025 и превзойдя множество других бенчмарков.

#обучение с подкреплением30.07.2025

NVIDIA ThinkAct: революция в управлении роботами через визуально-языковое планирование

Система ThinkAct от NVIDIA сочетает визуально-языковое рассуждение с усиленным латентным планированием, значительно улучшая управление роботами в сложных задачах.

#обучение с подкреплением30.07.2025

MiroMind-M1: Новый уровень открытого математического интеллекта с многоэтапным обучением с подкреплением

MiroMind-M1 представляет открытую платформу для продвинутого математического анализа, используя инновационное многоэтапное обучение с подкреплением для достижения передовых результатов и полной прозрачности.

#обучение с подкреплением30.07.2025

Рубрики как Награды: Улучшение Обучения Языковых Моделей с Помощью Структурированной Многофакторной Оценки

'Rubrics as Rewards (RaR) представляет метод обучения с подкреплением, использующий структурированные рубрики для повышения качества обучения языковых моделей в медицине и науке.'

#обучение с подкреплением25.07.2025

Alibaba запускает Qwen3-MT: революционный мультиязычный перевод на основе обучения с подкреплением

Alibaba представила Qwen3-MT — инновационную мультиязычную модель машинного перевода с обучением с подкреплением, обеспечивающую качественный и экономичный перевод на 92+ языках.

#обучение с подкреплением20.07.2025

Master-RM: укрепление доверия к LLM-моделям награды против поверхностных уязвимостей

Master-RM — новая модель награды, устраняющая уязвимости LLM-оценщиков к поверхностным подсказкам и обеспечивающая более надежные результаты в обучении с подкреплением.

#обучение с подкреплением19.07.2025

MemAgent: Революция в обработке длинных контекстов в LLM с помощью обучения с подкреплением

MemAgent представляет собой RL-агента памяти, позволяющего LLM эффективно работать с очень длинными документами, сохраняя высокую точность и линейные вычислительные затраты.

#обучение с подкреплением18.07.2025

Mirage: Визуальное мышление в моделях Vision-Language без генерации изображений

Mirage предлагает новый метод для моделей Vision-Language, позволяющий интегрировать визуальное мышление без генерации изображений, значительно повышая их эффективность в решении пространственных и мультимодальных задач.

#обучение с подкреплением16.07.2025

Apple представляет DiffuCoder: 7-миллиардная диффузионная модель для генерации кода

Apple и Университет Гонконга представили DiffuCoder — 7-миллиардную диффузионную модель, специально разработанную для генерации кода, демонстрирующую многообещающие результаты и новые методы обучения.

#обучение с подкреплением14.07.2025

MMSearch-R1: Революция в мультимодальном поиске в LMM с помощью обучения с подкреплением

MMSearch-R1 представляет собой систему обучения с подкреплением, которая позволяет большим мультимодальным моделям эффективно и избирательно выполнять поиск по запросу, улучшая точность и снижая нагрузку на систему поиска.

#обучение с подкреплением11.07.2025

Как мировые модели помогают воплощённому ИИ воспринимать и действовать как человек

Воплощённые ИИ агенты используют мировые модели для восприятия и действий в реальных или виртуальных средах, улучшая автономность и естественное взаимодействие с человеком.

#обучение с подкреплением09.07.2025

GTA1 от Salesforce устанавливает новый стандарт GUI-агентов, превосходя OpenAI CUA

Salesforce AI представила GTA1 — мощного GUI-агента, который превосходит OpenAI CUA благодаря инновационным методам масштабирования во время выполнения и обучению с подкреплением, улучшая успех выполнения задач и точность действий.

#обучение с подкреплением07.07.2025

SynPref-40M и Skywork-Reward-V2: Революция в масштабируемом согласовании человека и ИИ для передовых моделей вознаграждения

SynPref-40M представляет огромный набор данных предпочтений, который позволил создать серию моделей Skywork-Reward-V2 с передовыми результатами в согласовании человека и ИИ по нескольким бенчмаркам.

#обучение с подкреплением06.07.2025

Новый метод Meta и NYU: Полуонлайн обучение с подкреплением для улучшения выравнивания LLM

Meta и NYU разработали полуонлайн метод обучения с подкреплением, который балансирует офлайн и онлайн подходы для улучшения выравнивания больших языковых моделей и повышения их производительности в инструкциях и математике.

#обучение с подкреплением06.07.2025

AbstRaL: Повышение устойчивости LLM через абстрактное мышление и обучение с подкреплением

AbstRaL использует обучение с подкреплением для обучения LLM абстрактному мышлению, что значительно повышает их устойчивость и точность на изменённых задачах GSM8K по сравнению с традиционными методами.

#обучение с подкреплением04.07.2025

ASTRO улучшает способность Llama 3 к рассуждению более чем на 16% с помощью посттренировки

ASTRO — новая методика посттренировки, существенно повышающая способность Llama 3 к рассуждению, используя поисковое мышление и самокоррекцию, с приростом по бенчмаркам до 20%.

#обучение с подкреплением04.07.2025

Crome: Каузальная система Google DeepMind для надёжного обучения моделей вознаграждения в выравнивании LLM

Google DeepMind и партнёры представили Crome — каузальную систему, которая повышает устойчивость моделей вознаграждения при выравнивании больших языковых моделей, используя контрфактическую аугментацию данных.

#обучение с подкреплением03.07.2025

Together AI представила DeepSWE: открытый RL-обученный агент для кодирования с рекордными результатами на SWEBench

Together AI представила DeepSWE — открытого RL-агента для программирования на базе Qwen3-32B с лучшими результатами на бенчмарке SWEBench, устанавливая новые стандарты автономных AI для разработки.

#обучение с подкреплением03.07.2025

ReasonFlux-PRM: Революция в оценке цепочек рассуждений больших языковых моделей

'ReasonFlux-PRM — новая траекторно-ориентированная модель награды, которая оценивает промежуточные шаги и финальные ответы в больших языковых моделях, значительно улучшая их способности к рассуждениям и результаты обучения.'

#обучение с подкреплением01.07.2025

OMEGA: Новый бенчмарк для оценки творческих возможностей ИИ в математических рассуждениях

OMEGA — новый бенчмарк для проверки границ математического рассуждения больших языковых моделей, фокусируясь на исследовательском, композиционном и трансформационном обобщении.

#обучение с подкреплением01.07.2025

LongWriter-Zero: Революция в генерации ультра-длинных текстов с помощью обучения с подкреплением без синтетических данных

'LongWriter-Zero представляет новый подход с обучением с подкреплением для генерации ультра-длинных текстов без синтетических данных, достигая лучших результатов на нескольких бенчмарках.'

#обучение с подкреплением30.06.2025

DSRL: Управление роботами через обучение с подкреплением в латентном пространстве для реальной адаптации

DSRL представляет инновационный метод адаптации диффузионных политик роботов с помощью обучения с подкреплением в латентном пространстве, значительно улучшая результаты в реальных условиях без изменения базовой модели.

#обучение с подкреплением28.06.2025

Tencent выпускает Hunyuan-A13B: эффективная MoE-модель с 13 млрд активных параметров, двойным режимом мышления и поддержкой 256K контекста

Tencent представила Hunyuan-A13B — эффективную открыто исходную MoE-языковую модель с двойным режимом рассуждения и поддержкой огромных контекстов до 256K токенов, демонстрирующую передовые результаты на бенчмарках.

#обучение с подкреплением27.06.2025

Unbabel представляет TOWER+: революционная многоязычная модель для точного перевода и выполнения инструкций

Unbabel представляет TOWER+ — многоязычную языковую модель, которая сочетает высокоточный перевод и выполнение инструкций, превосходя существующие открытые модели по основным бенчмаркам.

#обучение с подкреплением27.06.2025

Polaris-4B и Polaris-7B: масштабируемое обучение с подкреплением для продвинутого математического и логического рассуждения

Polaris-4B и Polaris-7B представляют новый рецепт обучения с подкреплением, который эффективно масштабирует способности к рассуждению, достигая передовых результатов в математических тестах с использованием небольших моделей.

#обучение с подкреплением27.06.2025

GURU: Продвинутое обучение с подкреплением для многоцелевого рассуждения в шести областях

GURU представляет многоцелевой набор данных и модели обучения с подкреплением, значительно повышающие способности больших языковых моделей к рассуждению в шести различных областях и превосходящие предыдущие открытые модели.

#обучение с подкреплением26.06.2025

MEM1: революция в экономии памяти для языковых агентов с долгосрочной памятью

Исследователи из MIT и NUS представили MEM1 — фреймворк обучения с подкреплением для эффективного управления памятью языковых агентов при выполнении сложных многошаговых задач, превосходящий крупные модели по скорости и ресурсной эффективности.

#обучение с подкреплением24.06.2025

ByteDance представляет ProtoReasoning: улучшение обобщения LLM с помощью логических прототипов

Исследователи ByteDance представляют ProtoReasoning — новую систему, использующую логические прототипы для значительного улучшения рассуждений и планирования в больших языковых моделях.

#обучение с подкреплением23.06.2025

Reinforcement-Learned Teachers от Sakana AI: Революция в эффективном обучении рассуждению LLM

Sakana AI представляет Reinforcement-Learned Teachers (RLTs) — новый подход, который обучает небольшие модели эффективно преподавать рассуждение большим языковым моделям через RL, ориентированное на создание пошаговых объяснений.

#обучение с подкреплением20.06.2025

PoE-World: Модульные символические модели превосходят RL-базисы в Montezuma’s Revenge с минимальными данными

PoE-World представляет модульный символический подход, который превосходит традиционные методы обучения с подкреплением в Montezuma’s Revenge с минимальными данными, обеспечивая эффективное планирование и сильное обобщение.

#обучение с подкреплением19.06.2025

MiniMax AI Представляет MiniMax-M1: Гибридная Модель на 456 Млрд Параметров для Длинных Контекстов и Обучения с Подкреплением

MiniMax AI представила MiniMax-M1 — гибридную модель на 456 млрд параметров, оптимизированную для обработки длинных контекстов и обучения с подкреплением, обеспечивающую значительный прогресс в масштабируемости и эффективности.

#обучение с подкреплением19.06.2025

ReVisual-R1: Новый этап в мультимодальном рассуждении с открытой моделью на 7 миллиардов параметров

ReVisual-R1 — инновационная открытая мультимодальная языковая модель на 7 млрд параметров, которая достигает высоких результатов в комплексном рассуждении благодаря уникальному трехэтапному процессу обучения.

#обучение с подкреплением12.06.2025

CURE: Революция в генерации кода и юнит-тестов с помощью самообучающегося обучения с подкреплением в LLM

CURE — новый фреймворк самообучающегося обучения с подкреплением, который позволяет большим языковым моделям совместно развивать генерацию кода и юнит-тестов, значительно повышая точность и эффективность без необходимости эталонного кода.

#обучение с подкреплением10.06.2025

Meta представляет LlamaRL: масштабируемый фреймворк RL на PyTorch для эффективного обучения больших языковых моделей

Meta представила LlamaRL — инновационный масштабируемый асинхронный RL-фреймворк на PyTorch, который значительно ускоряет обучение больших языковых моделей при оптимальном использовании ресурсов.

#обучение с подкреплением05.06.2025

NVIDIA представила ProRL: длительное обучение с подкреплением улучшает рассуждения и обобщение в ИИ

NVIDIA представила ProRL — новый метод обучения с подкреплением, который за счет увеличения длительности тренировки раскрывает новые способности к рассуждению в моделях ИИ и показывает высокую эффективность на различных тестах.

#обучение с подкреплением03.06.2025

Лаборатория Shanghai AI Предлагает Энтропийные Законы Масштабирования для Решения Проблемы Коллапса Исследования в RL для LLM

Исследователи из Shanghai AI Laboratory предложили энтропийные законы масштабирования и новые методы для преодоления коллапса исследования в обучении с подкреплением больших языковых моделей, достигнув заметного улучшения результатов.

#обучение с подкреплением02.06.2025

MiMo-VL-7B: Продвинутая модель для визуального восприятия и мультимодального анализа

MiMo-VL-7B — мощная визуально-языковая модель от исследователей Xiaomi, показывающая передовые результаты в визуальном понимании и мультимодальном рассуждении благодаря инновационным методам обучения.

#обучение с подкреплением02.06.2025

Революция в рассуждениях LLM с офф-политик RL и регуляризацией KL-дивергенции

Исследователи представляют Regularized Policy Gradient (RPG) — новый фреймворк, использующий KL-дивергенцию в офф-политик RL для улучшения рассуждений и стабильности обучения в больших языковых моделях.

#обучение с подкреплением01.06.2025

Набор инструментов Enigmata революционизирует решение головоломок в больших языковых моделях с помощью продвинутого обучения с подкреплением

Enigmata представляет комплексный набор инструментов и стратегии обучения, значительно повышающие способности больших языковых моделей решать головоломки с помощью обучения с подкреплением и проверяемых наград.

#обучение с подкреплением30.05.2025

Внутри Invisible Technologies: CEO Мэтью Фитцпатрик о ИИ, сотрудничестве с людьми и масштабировании автоматизации

Мэтью Фитцпатрик, CEO Invisible Technologies, рассказывает о сочетании человеческого опыта и ИИ для масштабирования автоматизации, значении RLHF и тенденциях достижения ROI в корпоративном ИИ.

#обучение с подкреплением30.05.2025

Apple и исследователи из Duke представили метод обучения с подкреплением для промежуточных ответов LLM, повышая скорость и точность

Apple и исследователи из Duke представили метод межчередующегося рассуждения, позволяющий LLM выдавать промежуточные ответы, что значительно ускоряет и улучшает точность в сложных задачах.

#обучение с подкреплением28.05.2025

MMaDA: Прорывная унифицированная мульти-модальная диффузионная модель для работы с текстом и изображениями

MMaDA — новая унифицированная мульти-модальная диффузионная модель, которая превосходит существующие решения в задачах текстового рассуждения, визуального понимания и генерации изображений.

#обучение с подкреплением27.05.2025

QwenLong-L1: Продвинутый фреймворк для длинного контекстного вывода в больших языковых моделях с использованием обучения с подкреплением

QwenLong-L1 представляет структурированный подход к обучению с подкреплением, позволяющий большим языковым моделям эффективно решать задачи с длинным контекстом и достигает лучших результатов на множестве бенчмарков.

#обучение с подкреплением25.05.2025

NVIDIA Представляет Llama Nemotron Nano 4B: Компактная и Высокопроизводительная Модель ИИ для Edge и Научных Задач

NVIDIA представила Llama Nemotron Nano 4B — компактную открытую модель ИИ для периферийных устройств, превосходящую более крупные модели в научных и программных задачах.

#обучение с подкреплением25.05.2025

GRIT: Метод обучения мультимодальных моделей логическому мышлению с изображениями и текстом

GRIT представляет инновационный метод, который обучает мультимодальные языковые модели объединять рассуждения с изображениями и текстом, значительно улучшая точность визуального обоснования и рассуждений при минимальном объёме данных.

#обучение с подкреплением24.05.2025

Обучение с подкреплением помогает LLM превосходить традиционные компиляторы в оптимизации ассемблерного кода

Исследователи разработали метод обучения с подкреплением, который позволяет LLM превосходить традиционные компиляторы в оптимизации ассемблерного кода, достигая ускорения 1,47× и 96% успешного прохождения тестов на тысячах реальных программ.

#обучение с подкреплением22.05.2025

Улучшение логики больших языковых моделей через структурированное мышление без непредсказуемых «ага» моментов

Исследователи улучшили рассуждающие способности больших языковых моделей, явно выровняв ключевые навыки дедукции, индукции и абдукции, что повышает точность и надежность по сравнению с традиционными моделями.

#обучение с подкреплением22.05.2025

RXTX: Машинное обучение ускоряет алгоритм для структурного умножения матриц

RXTX — новый алгоритм на базе машинного обучения, который ускоряет и повышает эффективность структурного умножения матриц, превосходя существующие методы, включая рекурсивный алгоритм Страссена.

#обучение с подкреплением21.05.2025

NVIDIA представляет Cosmos-Reason1: революция в физическом здравом смысле и воплощённом рассуждении AI

NVIDIA представила Cosmos-Reason1 — набор AI-моделей для улучшения физического здравого смысла и воплощённого рассуждения с помощью мультимодального обучения и инновационных онтологий, повышая эффективность AI в реальных условиях.

#обучение с подкреплением20.05.2025

Почему AI-чатботы часто льстят пользователям?

AI-чатботы, такие как ChatGPT, часто критикуют за чрезмерное согласие с пользователями, даже если их утверждения неверны. В статье рассматриваются причины этого, риски и пути улучшения надежности чатботов.

#обучение с подкреплением16.05.2025

DanceGRPO: Революция в визуальной генерации с объединённым обучением с подкреплением

DanceGRPO представляет собой объединённую систему обучения с подкреплением для улучшения визуальной генерации в различных парадигмах, значительно повышая качество и соответствие человеческим предпочтениям.

#обучение с подкреплением15.05.2025

Joey Conway из NVIDIA раскрывает инновации в открытых ИИ-моделях Llama Nemotron Ultra и Parakeet

Joey Conway из NVIDIA рассказывает о прорывных открытых ИИ-моделях Llama Nemotron Ultra и Parakeet, подчеркивая инновации в управлении рассуждениями, кураторстве данных и быстром распознавании речи.

#обучение с подкреплением14.05.2025

Использование токсичных данных в предобучении LLM для улучшения детоксикации и управления

Новое исследование показывает, что включение токсичных данных в предобучение LLM улучшает способность модели к детоксикации и управлению, создавая более безопасные и устойчивые языковые модели.

#обучение с подкреплением13.05.2025

Nemotron-Tool-N1: революция в использовании инструментов LLM через обучение с подкреплением и минимальное сопровождение

Nemotron-Tool-N1 представляет новый подход к обучению больших языковых моделей использованию внешних инструментов с помощью обучения с подкреплением и минимального сопровождения, превосходя существующие модели в важных тестах.

#обучение с подкреплением13.05.2025

RLV: Улучшение рассуждений языковых моделей с помощью интегрированной проверки без использования value-функции

RLV представляет собой объединённый подход, интегрирующий верификацию в value-free обучение с подкреплением для языковых моделей, значительно повышая точность рассуждений и эффективность вычислений на математических тестах.

#обучение с подкреплением10.05.2025

Microsoft представила ARTIST: RL-фреймворк для LLM с агентным рассуждением и динамическим использованием инструментов

'Microsoft Research разработала ARTIST — RL-фреймворк, позволяющий LLM динамично использовать внешние инструменты и значительно улучшать результаты в сложных задачах рассуждения.'

#обучение с подкреплением10.05.2025

xGen-small от Salesforce: революция в корпоративном ИИ с эффективной обработкой длинного контекста

xGen-small от Salesforce — компактная модель ИИ для эффективной обработки длинного контекста с низкими затратами и высокой приватностью, меняющая корпоративные рабочие процессы.

#обучение с подкреплением09.05.2025

«Абсолютный ноль» от Университета Цинхуа: обучение ИИ без внешних данных

Исследователи Университета Цинхуа создали парадигму Absolute Zero для обучения больших языковых моделей без внешних данных с помощью системы самосовершенствования на основе кодового исполнителя.

#обучение с подкреплением09.05.2025

DeepSeek-Prover-V2: Революция в соединении интуиции и формальных математических доказательств

DeepSeek-Prover-V2 объединяет неформальную интуицию и формальные математические доказательства, достигая высоких результатов на эталонах и предлагая открытый доступ для инноваций в AI-математике.

#обучение с подкреплением07.05.2025

WebThinker: Усиление больших моделей рассуждения для автономного поиска в интернете и научных отчетов

WebThinker — новый агент ИИ, который позволяет большим моделям рассуждения самостоятельно искать информацию в интернете и создавать детальные научные отчеты, значительно повышая эффективность в сложных задачах.

#обучение с подкреплением05.05.2025

NVIDIA и CMU представляют Nemotron-CrossThink: новый этап в многоотраслевых рассуждениях для больших языковых моделей

Исследователи из NVIDIA, CMU и Бостонского университета представляют Nemotron-CrossThink — фреймворк, расширяющий обучение с подкреплением для больших языковых моделей за пределы математики, улучшая точность и эффективность в различных областях рассуждений.

#обучение с подкреплением03.05.2025

Исследователи UC Berkeley и UCSF представляют Adaptive Parallel Reasoning для эффективного масштабирования вывода LLM без превышения контекстного окна

Исследователи из UC Berkeley и UCSF разработали Adaptive Parallel Reasoning — метод, позволяющий большим языковым моделям динамически распределять вычисления вывода по параллельным потокам, повышая эффективность рассуждений без превышения контекстных ограничений.

#обучение с подкреплением02.05.2025

MiMo-7B от Xiaomi: компактная модель ИИ, превосходящая большие аналоги в математике и программировании

MiMo-7B от Xiaomi — компактная языковая модель, которая благодаря продвинутому предобучению и обучению с подкреплением превосходит более крупные модели в задачах математики и программирования.

#обучение с подкреплением01.05.2025

DeepSeek-Prover-V2: Прорыв в формальном доказательстве теорем с помощью ИИ и обучения с подкреплением

DeepSeek-AI выпустила DeepSeek-Prover-V2 — открытую большую языковую модель для формального доказательства теорем с помощью разложения на подцели и обучения с подкреплением, достигшую лучших результатов на нескольких бенчмарках.

#обучение с подкреплением01.05.2025

Microsoft Представила Phi-4-Reasoning: Мощную 14-Миллиардную Модель с Открытыми Весами для Сложных Задач Рассуждения

Microsoft представила семейство моделей Phi-4-Reasoning с 14 миллиардами параметров, оптимизированных для сложных задач рассуждения. Эти модели показывают конкурентоспособные результаты в математике, планировании и программировании с открытым доступом и прозрачными методами обучения.

#обучение с подкреплением30.04.2025

ART·E от OpenPipe: Революция в Email-Агентах с Помощью Обучения с Подкреплением — Быстрее, Дешевле, Точнее

ART·E от OpenPipe использует обучение с подкреплением для повышения скорости, снижения стоимости и улучшения точности ответов по email, превосходя агента o3 от OpenAI.

#обучение с подкреплением28.04.2025

Tina: Компактные модели USC с большими успехами в экономичном обучении с подкреплением

Исследователи USC представляют Tina — семейство компактных моделей рассуждения, использующих LoRA и обучение с подкреплением для эффективного достижения высоких результатов с минимальными затратами.

#обучение с подкреплением25.04.2025

Skywork AI представляет R1V2: прорыв в мультимодальном рассуждении с гибридным обучением с подкреплением

Skywork AI представляет R1V2 — современную мультимодальную модель с гибридным обучением с подкреплением, которая улучшает специализированное рассуждение и обобщение, превосходя многие открытые и проприетарные модели.

#обучение с подкреплением23.04.2025

Революция в LLM: Самообучающиеся языковые модели без меток с помощью Test-Time Reinforcement Learning

Исследователи из Университета Цинхуа и Шанхайской лаборатории ИИ представили TTRL — новый метод, позволяющий большим языковым моделям улучшать свои результаты без размеченных данных, используя самооценку и обучение с подкреплением во время инференса.